2.3.2メモ k-最近傍法
モデルが理解しやすい
ベースラインに向く
処理速度が遅い
うまく機能しないケース
多数の特徴量(数百以上)を持つデータセット(→扱えないためk-最近傍法自体ほとんど使われない)
疎なデータセット(ほとんどの特徴量が多くの場合0)
kNN
モデルの構築は、訓練セットを格納するだけ
クラス分類
kNeighborsClassifier
k-最近傍点の多数派のクラスを採用
多クラス分類も可能
k小 (例: k=1)
複雑なモデル
過剰適合(訓練セットに対する予測は完璧)
k大 (例: k=10)
シンプルなモデル
適合不足
回帰
kNeighborsRegressor
重要なパラメタ
近傍点の数
実用上は3や5程度の小さな数で十分
データポイント間の距離測度
ほとんどの場合、ユークリッド距離でうまくいく
他の距離で試してみたい